Model Selection

Convolution-enhanced ViT

# Convolution-enhanced ViT

Cvt W24 384 22k

CvT-w24 is a vision transformer model pre-trained on ImageNet-22k and fine-tuned at 384x384 resolution, improving traditional vision transformers through convolutional enhancements.

Image Classification

CvT-13 is a hybrid architecture model combining convolutional neural networks and vision transformers, pre-trained on the ImageNet-1k dataset, suitable for image classification tasks.

Image Classification

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase